立场检测任务旨在对给定文件和主题的立场进行分类。由于该主题可以隐含在文档中,并且在零摄影设置的培训数据中看不见,因此我们建议通过使用情感和常识知识来提高立场检测模型的可传递性,这在先前的研究中很少考虑。我们的模型包括一个图形自动编码器模块,以获取常识性知识和带有情感和常识的立场检测模块。实验结果表明,我们的模型优于零射击和少量基准数据集(VAST)上的最新方法。同时,消融研究证明了我们模型中每个模块的重要性。对情感,常识和立场之间关系的分析表明了情感和常识的有效性。
translated by 谷歌翻译
跨域情绪分析旨在使用在源域上训练的模型来预测目标域中文本的情感,以应对标记数据的稀缺性。先前的研究主要是针对任务的基于跨透明的方法,这些方法受到不稳定性和泛化不良的方式。在本文中,我们探讨了有关跨域情绪分析任务的对比度学习。我们提出了一个经过修改的对比度目标,其中包括隔离式负面样本,以便将同一类的句子表示将被推开,而来自不同类别的句子表示在潜在空间中进一步分开。在两个广泛使用的数据集上进行的实验表明,我们的模型可以在跨域和多域情绪分析任务中实现最先进的性能。同时,可视化证明了在源域中学习的知识转移到目标域的有效性,并且对抗性测试验证了我们模型的鲁棒性。
translated by 谷歌翻译
产品图像对于在电子商务平台中提供理想的用户体验至关重要。对于拥有数十亿种产品的平台,手动挑选和组织合格的图像非常耗时且耗尽劳动力。此外,要生成/选择的产品图像需要遵守众多且复杂的图像规则。为了解决这些挑战,在本文中,我们提出了一个新的学习框架,以便在电子商务中自动生成产品图像序列(AGPI)。为此,我们提出了一个多模式统一的图像序列分类器(MUISC),该分类器能够通过学习同时检测所有规则违规的类别。 MUISC利用文本审查反馈作为额外的培训目标,并利用产品文本描述提供额外的语义信息。根据离线评估,我们表明拟议的MUISC显着优于各种基线。除MUISC外,我们还将其他一些重要的模块集成在提出的框架中,例如主图像选择,不合格的内容检测和图像重复数据删除。借助所有这些模块,我们的框架在JD.com推荐平台中有效,有效地工作。到2021年12月,我们的AGPIS框架为约150万种产品生成了高标准图像,并获得了13.6%的拒绝率。
translated by 谷歌翻译
图形神经网络(GNN)在解决图形结构数据(即网络)方面的各种分析任务方面已广受欢迎。典型的gnns及其变体遵循一种消息的方式,该方式通过网络拓扑沿网络拓扑的特征传播过程获得网络表示,然而,它们忽略了许多现实世界网络中存在的丰富文本语义(例如,局部单词序列)。现有的文本丰富网络方法通过主要利用内部信息(例如主题或短语/单词)来整合文本语义,这些信息通常无法全面地挖掘文本语义,从而限制了网络结构和文本语义之间的相互指导。为了解决这些问题,我们提出了一个具有外部知识(TEKO)的新型文本富裕的图形神经网络,以充分利用文本丰富的网络中的结构和文本信息。具体而言,我们首先提出一个灵活的异质语义网络,该网络结合了文档和实体之间的高质量实体和互动。然后,我们介绍两种类型的外部知识,即结构化的三胞胎和非结构化实体描述,以更深入地了解文本语义。我们进一步为构建的异质语义网络设计了互惠卷积机制,使网络结构和文本语义能够相互协作并学习高级网络表示。在四个公共文本丰富的网络以及一个大规模的电子商务搜索数据集上进行了广泛的实验结果,这说明了Teko优于最先进的基线。
translated by 谷歌翻译
行动预测旨在通过部分观察视频推断即将举行的人类行动,这是由于早期观察结果有限的信息有限。现有方法主要采用重建策略来处理此任务,期望从部分观察到完整视频来学习单个映射函数,以便于预测过程。在这项研究中,我们提出了来自两个新方面的部分视频查询生成“完整视频”功能调节的对抗性记忆网络(AMEMNet)。首先,键值结构化存储器发生器旨在将不同的部分视频存储为键存储器,并在具有门控机制和查询关注的值存储器中动态地写入完整视频。其次,我们开发了一个类感知判别者,以指导内存发生器在对抗训练时不仅提供现实,而且还提供鉴别的完整视频特征。通过RGB和光学流量的晚期融合给出了AMEMNET的最终预测结果。提供两个基准视频数据集,UCF-101和HMDB51的广泛实验结果,以证明所提出的AMEMNET模型在最先进的方法的有效性。
translated by 谷歌翻译
我们提出了一种新的域特定的生成预训练(DS-GPT)方法,用于文本生成,并将其应用于电子商务移动显示器上的产品Titleand审查总结问题。首先,我们采用了仅限解码器的变压器体系结构,该架构Fitswell通过组合输入和输出全部携带的微调任务。其次,我们在相关域中仅使用少量预训练数据是强大的。预先训练从一般语料库中的矛盾,如维基百科或通用需要巨大的时间和资源承诺,如果下游任务有限。 OUDSGPT在Limble DataSet中预先培训,中文短篇演示数据集(LCSTS)。第三,我们的模型不要求相关的人类标记数据。对于标题摘要任务,艺术状态明确地使用额外的背景知识训练和预测阶段。相比之下,我们的模型暗示 - 在公共Taobao.comDataset上微调后,旨在捕获这种知识并实现了重要的改进其他方法。对于审查摘要任务,我们利用JD.com在-UteedAtaset上,并观察到缺乏微调灵活性的标准机械进程方法的类似改进。我们的工作可以简单地扩展到其他文本生成任务的域。
translated by 谷歌翻译
随着预先训练模型的巨大成功,Pretrain-Then-Finetune范式已被广泛采用下游任务,以获得源代码的理解。但是,与昂贵的培训从头开始培训,如何将预先训练的模型从划痕进行有效地调整到新任务的训练模型尚未完全探索。在本文中,我们提出了一种桥接预先训练的模型和与代码相关任务的方法。我们利用语义保留的转换来丰富下游数据分集,并帮助预先接受的模型学习语义特征不变于这些语义上等效的转换。此外,我们介绍课程学习以易于努力的方式组织转换的数据,以微调现有的预先训练的模型。我们将我们的方法应用于一系列预先训练的型号,它们在源代码理解的任务中显着优于最先进的模型,例如算法分类,代码克隆检测和代码搜索。我们的实验甚至表明,在没有重量训练的代码数据上,自然语言预先训练的模型罗伯塔微调我们的轻质方法可以优于或竞争现有的代码,在上述任务中进行微调,如Codebert和Codebert和GraphCodebert。这一发现表明,代码预训练模型中仍有很大的改进空间。
translated by 谷歌翻译
由于缺乏标签信息,异常检测是机器学习中的基本但具有挑战性的问题。在这项工作中,我们提出了一种新颖而强大的框架,称为SLA $ ^ 2 $ P,用于无监督的异常检测。在从原始数据中提取代表性嵌入后,我们将随机投影应用于特征,并将不同投影转换的特征视为属于不同的伪类。然后,我们在这些转换功能上培训一个分类器网络,以执行自我监督的学习。接下来,我们向变换特征添加对冲扰动,以减少预测标签的软MAX分数,并基于这些扰动特征对分类器的预测不确定性来降低预测标签和设计异常分数。我们的动机是,由于相对较小的数量和分散的异常模式,1)伪标签分类器的培训更集中学习正常数据的语义信息而不是异常数据; 2)正常数据的转换特征比异常的扰动更强大。因此,异常的扰动转化的特征不能良好分类,因此具有比正常样本的异常分数低。在图像,文本和固有的表格基准数据集上进行了广泛的实验,并表明SLA $ ^ 2 $ p实现了最先进的导致无监督的异常检测任务一致。
translated by 谷歌翻译
我们开发了一个新颖的框架,将稀疏集团拉索的正规化者添加到深度学习中的自适应优化者家族中,例如动量,亚当,亚当,阿姆斯格拉德,阿德哈西亚人,并创建了新的优化者,这些优化者被称为群体动量,命名因此,Adagrad小组,亚当集团,Amsgrad集团和Adahessian集团等。我们基于原始偶的方法在随机凸设置中建立理论上证明的收敛保证。我们评估了新优化器对具有最先进的深度学习模型的三个大型现实广告单击数据集的正则效应。实验结果表明,与使用幅度修剪方法的后处理过程相比,模型的性能可以在相同的稀疏度水平上显着提高。此外,与没有幅度修剪的情况相比,我们的方法可以实现极高的稀疏性,并具有明显的更好或高度竞争性的性能。
translated by 谷歌翻译
Modern machine learning suffers from catastrophic forgetting when learning new classes incrementally. The performance dramatically degrades due to the missing data of old classes. Incremental learning methods have been proposed to retain the knowledge acquired from the old classes, by using knowledge distilling and keeping a few exemplars from the old classes. However, these methods struggle to scale up to a large number of classes. We believe this is because of the combination of two factors: (a) the data imbalance between the old and new classes, and (b) the increasing number of visually similar classes. Distinguishing between an increasing number of visually similar classes is particularly challenging, when the training data is unbalanced. We propose a simple and effective method to address this data imbalance issue. We found that the last fully connected layer has a strong bias towards the new classes, and this bias can be corrected by a linear model. With two bias parameters, our method performs remarkably well on two large datasets: ImageNet (1000 classes) and MS-Celeb-1M (10000 classes), outperforming the state-of-the-art algorithms by 11.1% and 13.2% respectively.
translated by 谷歌翻译